iT邦幫忙

2023 iThome 鐵人賽

DAY 3
0

YOLO9000: Better, Faster, Stronger

Joseph Redmon, Ali Farhadi

可偵測超過9000種類別

問題

  • 過去方法只能辨識很少的類別物件。
  • 替影像作detection標註比做classification標註更耗時。
  • 跟Region proposal based的方法相比,YOLOv1 recall較低。
  • 要提升準確度往往需要提高網路複雜度。

方法:

Better

  • Batch Normalization: 取代Dropout,加快收斂且提升2% mAP
  • High Resolution Classifier: 先用448×448像素值的影像預先進行訓練10個epochs,先提升4% mAP
  • Anchor Boxes:
    • 移除全連結層,並用Anchor Boxes預測Bounding Boxes。
    • 輸入為416×416為了讓特徵圖中的座標為奇數個,這樣中心點座標就會唯一。mAP會下降,但是提升了Recall。
  • Dimension Clusters:過去需手動設定Anchor Box數量以及尺寸,但本文利用K-means去生成Bounding Box,可以使得模型學得更好。
    K-mean用:https://ithelp.ithome.com.tw/upload/images/20230918/20120310UBkRxHyYcE.png
    最終求得: K=5,Recall跟模型複雜度較為適合。
    https://ithelp.ithome.com.tw/upload/images/20230918/20120310D98Xf5HDB2.png
  • Direct location prediction: 每個Grid Cell預測五個Bounding Box,
    並且有五個值https://ithelp.ithome.com.tw/upload/images/20230918/20120310JwvT2TA2Nl.png
    https://ithelp.ithome.com.tw/upload/images/20230918/20120310TROWZodFvu.png
    • bx,by:預測的Bounding Box中心點位置+距離最左邊跟最上面Grid Cell的格數。
    • bw,bh:預測的Bounding Box寬跟高乘上寬跟高篇移量的exponential結果。
    • 信心度值會再經過sigmoid後輸出
      https://ithelp.ithome.com.tw/upload/images/20230918/20120310KFAn9Jk6M9.png
  • Fine-Grained Features:串接較為淺層的特徵到深層網路當中,提升1%。
  • Multi-Scale Training:為了讓模型可以處理不同大小的影像,每10個batch會重新選擇一個新的影像大小{320,352, ...,608}

Faster

  • 物件偵測網路常採用VGG-16用於特徵提取,但是因為VGG-16參數量太大,YOLOv2提出一個新的分類模型: Darknet-19。
  • Darknet-19: 19個convolution layers,5個max pooling layers,參數量少很多。

Stronger

  • 當將兩個Dataset進行合併的時候可能會遇到類別互斥問題,舉論文例子:對於一張狗的影像,有的資料集標得是"狗",有的資料集標的是狗的品種。
  • 建立Hierarchical Wordtree:
    https://ithelp.ithome.com.tw/upload/images/20230918/20120310PEHcc6Po9d.png
  • 可藉由路徑上的節點機率來得到對應類別的機率,其中phisical object代表影像中是否有物件存在。
    https://ithelp.ithome.com.tw/upload/images/20230918/20120310smvoM7g7vN.png

模型訓練

  • Classification:會先用分類網路預訓練10個epochs訓練448×448的影像,並接續訓練160個epochs。
  • Detection: 移除上面預訓練好的classification模型最後一層convolution層,並添加三層3×3×1024的卷積層,以及最後加入一層輸出層(1×1×(5 boxes × (5 coordinates +類別數))),中間有加入passthorough層。

實驗結果

https://ithelp.ithome.com.tw/upload/images/20230918/20120310GZInPJILxS.png
https://ithelp.ithome.com.tw/upload/images/20230918/20120310vZnoRItiRW.png

文章使用之圖片擷取自該篇論文


上一篇
[DAY 2] YOLO的開端-YOLOv1
下一篇
[DAY 4] YOLOv3
系列文
YOLO系列網路技術採用以及實作30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言